第20天,我們要來直接面對【人工智慧(AI)】了。
從Day1一路下來,循序漸進,從資料收集、資料匯入、資料清洗、資料採礦、資料分析,延伸出大數據、機器學習,直到今天的【人工智慧(AI)】,相信應能明確呼應我的參賽主題「AI無法一步登天,讓我們先從專有名詞定義開始。」
沒有機器學習,就沒有AI;
沒有大數據,就沒有足夠深度可讓機器做學習;
沒有那一道道猶如清下水道般辛苦的資料處理程序,縱有大數據也是枉然。
一切是那麼地環環相扣、層層演進、缺一不可。
如果機器學習是一個人類,那麼,AI,就是一個試圖追求瞭解「小至原子、大至宇宙、橫往五度空間、縱往前世今生」的超人類。這形容太浮誇?不會,讓我們繼續來看蘿蔔排骨湯。
這是機器學習的限制範圍:
前面提到步驟2是早中晚各買一次,但到底,所謂【晚】是多晚?是每天的晚上六點(固定時間)?還是每天太陽下山落下去的瞬間(不固定時間但有遵循某個規則);整攤的蘿蔔有好幾根,我是要拿最左邊的?還是最右邊的?中間最上面的?還是最下面的?
這正是恐怖之處!往更細節去看,在機器學習中已經很麻煩的步驟1~4,還必須依照上面的不同,重新各自再跑過n次。
步驟3要連續30天,但實際上,會不會連續29天就能得知,還是連續跑到35天是最好的?或是連續15天就夠了?步驟5不必再測試10天,只要3天就夠了,還是其實要12天?
最好的方式,是連續30天的狀況測試100次、連續29天的狀況測試100次、連續28天......,如此一來,我就能知道連續哪個天數是最好的。
等等!可是這都是測試100次,會不會測試99次就夠了,會不會測試98次就夠了,甚至50次就夠了?最好的方式......
(你應該不希望我繼續說下去了吧?)
原子+宇宙,即是【深度學習(Deep Learning)】的概念,相同規則之下:
往下細細切分,往上重重包覆。
以期待對於每個變數,經反覆學習之後,找到最恰當的值。
「墨菲!墨菲……」
廣度就像是讓具備深度學習的人類,開始跨各個領域學習。挑到最好的食材只是其中一小步,一碗好的蘿蔔排骨湯可不是只有食材啊,湯頭、色澤、碗的美觀、端上桌的時間長短(冷掉了沒),最好的方式,就是必須測試過所有組合,每種組合也不是只試一次……
一碗熱騰騰的蘿蔔排骨湯上桌了,小馬品嘗之後,背後出現三排拿扇子開始跳舞的宮女,一切已經趨近完美,但小馬想試試如果多加一塊蘿蔔會怎樣?他將時間倒轉回下鍋的那一刻,多丟了一塊蘿蔔進去,接著食用這回合料理的蘿蔔排骨湯,於是,眼前景象換成了驚滔駭浪,拍在雄壯陡峭的蘿蔔山壁上。
那如果多加一塊排骨呢?再次時間倒轉,這回合品嘗完,小馬暈死過去,原來上了天堂,他在那遇見一頭豬,豬微微笑地叫住了小馬,一人一豬坐在雲端上,豬開始將牠的生平娓娓道來……最後小馬悠悠甦醒,身旁僅存一只空碗。
再次時間倒轉,小馬再次發動【Reading Steiner,又稱命運探知之魔眼(詳請查詢動畫「命運石之門」,小馬這輩子最喜歡的動畫,沒有之一。)】......
嗯!?你問我為什麼要倒轉時間?為什麼不直接再做一碗元素不一樣的湯?因為這樣一來...品嘗的時間點會不同啊;時間不同,那...一口氣做出好幾碗呢?同一時間品嘗好幾碗呢?裝湯的碗會不同啊(就算是相同的碗,也會略有差異吧?)。不做到所有其他變數都不變,就沒辦法確定某個變數所帶來的實際影響。
可是變數那麼多,範圍這麼廣,怎麼可能一個一個去測啊...
是的,解決這種多變數影響,讓多變數同時往最佳值去移動的過程,就是【梯度下降(Gradient Descent)】的觀念。當然這邊就不再細談,只要知道,這是一個非常非常非常非常浩大的過程,才能進化出......
深度學習(往下細分 + 往上包覆) + 足夠廣度(五度空間) + 自我修正(前世今生)
=【人工智慧(AI)】
最後的最後,AI經過了完整全面向的資訊收集與數據分析及結論反覆驗證測試後,它得到了以下的結論,一碗最受眾人喜愛的蘿蔔排骨湯,是這樣來的:每天晚上17:20分到第一市場的三號攤位買蘿蔔,要選位在中間上排偏右的蘿蔔;下午17:45分到第三市場的九號攤位買排骨,老闆穿著白色吊嘎時最容易談價格;下鍋時的蘿蔔平均每碗需要3塊蘿蔔,切成長寬高2*3*3
是最適大小……
好了我就不再談下去,人工智慧的概念即是如此,它可能得到集眾人經驗的認知,也可能透過自我不斷的迴圈訓練測試驗證,得到不為人知的優勢。當然,我承認具體來說,這邊只提到了食材準備的部分,但相信聰明如你,肯定能舉一反三其他部份了吧?
截至於此,並沒有一個明確的切分點,去說,哪個臨界之前只能稱為機器學習、哪個臨界之後才能稱為人工智慧。當然某種程度上,是因為人類還沒有足夠的經驗和高度,可以去確認這個臨界吧。
如前一天所述,AI在我職涯領域,
屬於看似取得門票卻又尚未實際踏入的一個大殿堂,
本篇...蠻遺憾的...沒有能直接針對AI的番外篇。
文字敘述的部分,也在本篇完全結束,
期待有朝一日,這些專有名詞,
可以被人們理解後善用,而不再是積非成是的誤用。
往下,我將開始說明SQL迴圈的主要寫法,
以及我常用的工法,會詳細說明為什麼要這樣做,優點是什麼?
很開心一路陪我到現在的各位讀者,從點擊數和讚數去看雖然不太多,
但這些數字,都是我每天發文的動力之一,感謝你們。
由於接著10天是實際SQL操作,總覺得會和前20天的風格迥然不同,
好不容易喜歡這趨近純文字系列的讀者,
可能將對接著的10天coding會稍嫌無法接受......
不過這也是小馬主張,認為必須把每天主題完整說明清楚,
而不會同樣一件事因為字數達標,就切成好幾天去寫。
因此這樣的編排,是剛開始就決定的,還請各位多多包涵了。
話說回字數...Day1本來還只說30天要寫18,000字,
透過我word計算字數,在昨天Day19突破了40,000字,
並在今天Day20達到了42,000字,自己也始料未及。
不如改一改拿來出書好了!
又再幻想了!
不如改一改拿來出書好了!
結果這句真的應驗了!
真的很感謝小馬願意把走在資料一條龍這條路上的經驗分享出來。在相似領域工作,看「小馬閒聊」時很多地方都讓人會心一笑~
deyi,特地註冊帳號來留言,真的是太感動了!!>"<
非常感謝你的留言回饋,我編輯老跟我說書賣得不錯,但我就疑惑說也沒看到很多人寫信給我或出版社啊,還會擔心是不是內容不好...現在知道我的書帶給讀者有越來越多人回饋是正向的,真是太好了!
哈哈哈雖然註冊帳號了,但我整個忘記我的帳號密碼(老症頭XD)
因為有件事想分享給你,所以跑去重設密碼回歸了(真是抱歉我居然過了好幾個月才回覆
看完你的書之後,我有做成簡報在公司的讀書會和一個重要會議上分享給同事和主管們,好幾個人會後都表示對這本書有興趣來跟我借書,我想說的是,在幾乎人人都能隨口大數據的現在,可以用這麼幽默用淺白的方式,讓沒有數據背景的人也能感到有興趣進而更深入的了解,真的很好!所以想來跟你分享這份這份開心的心情 =)
PS 有發現你的簡介多了「珵式馬」,在這裡恭喜你能做到想做的事情,所謂的夢想就是需要像你這樣有行動力的人才能付諸實現,加油!(剛剛也有去FB按讚追蹤了,哈
能在出書滿一年之際得到這樣的訊息,真的非常感謝。
當初構想主題時,雖有一定程度的把握,但畢竟如內容所述,並沒那麼100%確定自己到底有沒有講錯的地方,有點抱著坎寧安定律的心態寫作。
現在一年過去,有許多正向回饋,卻從未收過指出書中錯誤或反駁書中論點的意見(職場閒聊部分除外,呵呵~),可見那本書,經市場驗證,仍有一定程度的參考價值。
再次感謝分享!!
看完前 20 篇了 受益良多!!
2018 年的時候我還沒有踏入資料分析領域
雖然現在 2022 年了 依然相當有收穫!
特地把新手任務解完 才能在這裡留言感謝XD